Big Data und Datenschutz: Mit Statistik Lösungen entwickeln
11.02.2025
Statistiker Jörg Drechsler, neuberufen an der LMU, forscht an Methoden, digitale Daten sicher zu nutzen.
11.02.2025
Statistiker Jörg Drechsler, neuberufen an der LMU, forscht an Methoden, digitale Daten sicher zu nutzen.
Jörg Drechsler, Professor für Statistik mit Schwerpunkt Arbeitsmarktforschung an der LMU | © LMU/Stephan Höck
Das Leben ist ein Datenberg, der ständig größer wird. Vom Blutdruck, der in der Arztpraxis gemessen wird, bis zu den Sozialversicherungsbeiträgen, die automatisch vom Gehalt abgezogen werden: Alles wird digital erfasst. Dazu kommen die digitalen Spuren, die Nutzende von Smartphones und anderen digitalen Geräten laufend hinterlassen. LMU-Wissenschaftler Jörg Drechsler forscht darüber, wie solche Daten sicher genutzt werden können, ohne die Privatsphäre Einzelner zu verletzen.
Denn diese Big Data bergen Informationen, die Antworten auf viele Forschungsfragen enthalten. „Gerade im medizinischen Kontext kann es Leben kosten, wenn der Datenzugang für die Forschung beschränkt ist“, sagt Jörg Drechsler. Die grundsätzliche Herausforderung sei es, den Trade-off auszubalancieren: „Auf der einen Seite geht es darum, zu ermöglichen, dass Daten genutzt werden können, um gesellschaftlich relevante Erkenntnisse zu gewinnen. Aber gleichzeitig muss der Schutz der Privatsphäre gewährleistet sein.“
Seit April 2024 ist Jörg Drechsler Professor für Statistik mit Schwerpunkt Arbeitsmarktforschung an der LMU. „Es ist wunderbar, wieder hier zu sein“, sagt Jörg Drechsler. Zuvor hatte er bereits Lehraufträge an der LMU und kannte das Institut für Statistik daher schon, wo er das „angenehme und offene Klima“ unter den Kolleginnen und Kollegen schätzen gelernt hatte.
Einmal Statistikprofessor zu werden, daran hatte Jörg Drechsler nicht im Entferntesten gedacht, als er sein Studium anfing. Er hat 1999 ein Klavierstudium begonnen und erst nach einigen Jahren parallel ein Studium der Volkswirtschaftslehre aufgenommen. „Das war ein großer Schritt für mich“, sagt er rückblickend. „Letztlich lag es daran, dass ich in meiner linken Hand eine Bewegungsstörung entwickelt habe, die Menschen betreffen kann, die feinmotorisch arbeiten, wie Musiker und Goldschmiede.“ „Sehen Sie sich anderweitig um“, empfahl ihm der Arzt, der die Diagnose schließlich stellte.
„Ich war erst einmal ziemlich ratlos, was ich machen soll“, erinnert sich Jörg Drechsler. Nach einem Coaching mit umfangreichen Tests hat er sich für die Ökonomie entschieden. „Die Beraterin empfahl mir zwar ein Statistikstudium, das habe ich aber erst einmal nicht verfolgt.“ Wie recht sie hatte, sollte sich erst nach dem Studium zeigen. Stattdessen hat Drechsler auf die Ökonomie gesetzt und von 2001 bis 2006 Wirtschaftswissenschaften an der Universität Erlangen studiert.
2006 begann er als wissenschaftlicher Mitarbeiter am Institut für Arbeitsmarkt- und Berufsforschung (IAB). „Durch meinen Einstieg am IAB hat sich ergeben, dass ich immer mehr in die reine Statistik gedriftet bin. Inzwischen sage ich auch nicht mehr, ich bin Ökonom, sondern ich bin Statistiker, weil ich nicht zu inhaltlichen Fragen, etwa zum Arbeitsmarkt, forsche, sondern an statistischen Methoden.“ 2009 wurde er an der Universität Bamberg promoviert, während er weiterhin auch am IAB forschte. „Ab der Promotion war mir klar, dass ich in der Wissenschaft bleiben möchte.“ Parallel zu seiner Tätigkeit am IAB, wo er inzwischen Leiter des Forschungsbereichs Empirische Methoden ist, hat er sich 2015 an der LMU habilitiert. Es folgten Forschungsaufenthalte an der Duke University in den USA.
Seit 2022 hat Jörg Drechsler die Leitung des Forschungsbereichs Empirische Methoden (KEM) am IAB inne, die er auch weiterhin behält. Die Einrichtung einer Stiftungsprofessur ermöglicht ihm, seine Tätigkeiten am IAB und an der LMU miteinander zu kombinieren, eine Lehrveranstaltung pro Semester sieht sie vor. In der Lehre schätzt Jörg Drechsler, dass die Statistik am Institut keine Teildisziplin ist, sondern die Studierenden „genau das lernen wollen. Dann macht die Lehre auch besonders Spaß.“
Zusammen mit seinem Team beim KEM beschäftigt sich Jörg Drechsler mit allen Fragen zum Thema Datenqualität, damit Forschende im Rahmen ihrer Studien möglichst zuverlässige Daten auswerten können. Sein eigener Forschungsschwerpunkt ist jedoch die Anonymisierung von bereits bestehenden Daten. Jörg Drechsler ist Experte für Methoden, die es ermöglichen, Informationen aus digitalen Daten zu nutzen, ohne über die dahinterstehenden Personen etwas zu verraten.
So reicht es zum Beispiel nicht, einfach die Namen und Adressen von den restlichen Daten zu trennen, was als Pseudonymisierung bezeichnet wird. „Das Problem ist, dass man Personen auch an anderen Merkmalen leicht identifizieren kann.“ Forschende mit Zugang zu den Individualdaten müssen daher einen Schritt weiter gehen und bestimmte Informationen aggregieren, zum Beispiel indem statt eines konkreten Alters oder Einkommens nur noch Intervalle angegeben werden. „Allerdings kam man in den letzten Jahren zu der Erkenntnis, dass in Zeiten ubiquitär verfügbarer Daten auch das häufig nicht mehr ausreicht, es sei denn, man aggregiert sehr stark, aber dann geht vom Inhalt viel verloren.“
Ein alternativer Ansatz ist es, synthetische Daten zu erstellen: Dafür werden auf Basis der Originaldaten Modelle entwickelt, die nur die Struktur dieser Daten abbilden. Mithilfe dieser Modelle werden neue, synthetische Daten erzeugt, die in ihren Zusammenhängen den Originaldaten entsprechen, aber keinerlei unmittelbare Informationen über die Personen enthalten, mit denen die Originaldaten in Verbindung stehen. Fragen, wie etwa der Einfluss der Schulbildung auf das Einkommen ist, lassen sich zum Beispiel mithilfe synthetischer Daten beantworten.
Auch im Kontext der Künstlichen Intelligenz, die ja mithilfe großer Datenmengen trainiert wird, ist der Umgang mit sensiblen Informationen ein Thema. „Es gibt die Vorstellung, dass Daten geschützt seien, wenn nur das Modell genutzt wird, das mithilfe von KI erstellt wurde. Aber das Problem ist: Die KI hat die ursprünglichen Informationen gespeichert. Und es gibt immer wieder Beispiele, wie sich mit geschickten Prompts Einzelinformationen bezüglich der Daten, auf denen die KI trainiert wurde, gewinnen lassen“, erklärt Jörg Drechsler.
Differential Privacy ist ein sehr interessantes Verfahren, weil es eine mathematische Garantie für den Datenschutz bietet.Jörg Drechsler, Professor für Statistik mit Schwerpunkt Arbeitsmarktforschung an der LMU
Hier setzt der Ansatz der Differential Privacy an, zu dem Jörg Drechsler ebenfalls forscht. Es ist der Versuch, den Output, der beispielsweise durch eine KI produziert wird, durch Überlagerung mit einem Zufallswert so zu verrauschen, dass Rückschlüsse auf die zugrunde liegenden Einzelangaben nahezu unmöglich sind. „Differential Privacy ist ein sehr interessantes Verfahren, weil es eine mathematische Garantie für den Datenschutz bietet“, sagt Jörg Drechsler. Aber auch hierzu ist noch viel Forschung nötig, damit nicht am Ende die Ergebnisse so stark verändert werden, dass sich nichts mehr daraus lernen lässt.
Die Frage, die Jörg Drechsler in seiner Forschung täglich beschäftigt, geht damit weit über das Statistische hinaus: Welche Relevanz soll der Datenschutz haben? Ist es notwendig, alle persönlichen Daten vollumfänglich zu schützen, oder ist es wichtiger, bestimmte Daten zugänglich zu machen? „Das kann ich als Statistiker nicht beantworten“, sagt Jörg Drechsler. „Das ist eine Frage an die Gesellschaft.“
Ich habe manchmal den Eindruck, dass viele sich wenig Gedanken darüber machen, wo ihre privaten Daten landen. Es ist letztlich eine Frage der Hoheit über die eigenen Daten.Jörg Drechsler, Professor für Statistik mit Schwerpunkt Arbeitsmarktforschung an der LMU
Jörg Drechsler beschäftigt sich in seiner Forschung mit Daten, die im behördlichen Kontext anfallen. Hier sind die Anforderungen an den Datenschutz in Deutschland sehr hoch, der Zugang ist stark reglementiert.
Dabei beobachtet der Datenexperte, dass zugleich viel großzügiger mit den eigenen Daten umgegangen wird: Zumindest Nutzende digitaler Medien akzeptieren meist klaglos, dass ihre Daten, die bei der Nutzung zum Beispiel von Messengern anfallen, bei den privaten Anbietern dieser Dienste landen. „Ich habe manchmal den Eindruck, dass viele sich wenig Gedanken darüber machen. Es ist letztlich eine Frage der Hoheit über die eigenen Daten. Damit wird so viel Geld verdient. Momentan werden sie für Werbezwecke verkauft, aber wer weiß, wer langfristig Zugang zu diesen Daten bekommt.“
Interview zur Cybersicherheit: „Es gibt keinen hundertprozentigen Schutz“